Résumé généraliste de flux de données

نویسندگان

  • Georges Hébrail
  • Christine Potier
چکیده

Résumé. Lorsque le volume des données est trop important pour qu’elles soient stockées dans une base de données, ou lorsque leur fréquence de production est élevée, les Systèmes de Gestion de Flux de Données (SGFD) permettent de capturer des flux d’enregistrements structurés et de les interroger à la volée par des requêtes permanentes (exécutées de façon continue). Mais les SGFD ne conservent pas l’historique des flux qui est perdu à jamais. Cette communication propose une définition formelle de ce que devrait être un résumé généraliste de flux de données. La notion de résumé généraliste est liée à la capacité de répondre à des requêtes variées et de réaliser des tâches variées de fouille de données, en utilisant le résumé à la place du flux d’origine. Une revue de plusieurs approches de résumés est ensuite réalisée dans le cadre de cette définition.

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

Résumé hybride de flux de données par échantillonnage et classification automatique

Résumé. Face à la grande volumétrie des données générées par les systèmes informatiques, l’hypothèse de les stocker en totalité avant leur interrogation n’est plus possible. Une solution consiste à conserver un résumé de l’historique du flux pour répondre à des requêtes et pour effectuer de la fouille de données. Plusieurs techniques de résumé de flux de données ont été développées, telles que ...

متن کامل

Clustering topologique pour le flux de données

Résumé. Actuellement, le clustering de flux de données devient le moyen le plus efficace pour partitionner un très grand ensemble de données. Dans cet article, nous présentons une nouvelle approche topologique, appelée G-Stream, pour le clustering de flux de données évolutives. La méthode proposée est une extension de l’algorithme GNG (Growing Neural Gas) pour gérer le flux de données. G-Stream...

متن کامل

Echantillonnage optimisé de données temporelles distribuées pour l'alimentation des entrepôts de données

Résumé. Les entrepôts de données sont de plus en plus alimentés par des données provenant d’un grand nombre de capteurs. Les capteurs trouvent leur utilité dans plusieurs domaines : médical, militaire, trafic routier, météorologie ou encore des données de consommation électrique. Pour faire face à la volumétrie et au taux d’arrivée des flux de données, des traitements sont effectués à la volée ...

متن کامل

Délestage pour l'analyse multidimensionnelle de flux de données

Résumé. Dans le contexte de la gestion de flux de données, les données entrent dans le système à leur rythme. Des mécanismes de délestage sont à mettre en place pour qu’un tel système puisse faire face aux situations où le débit des données dépasse ses capacités de traitement. Le lien entre réduction de la charge et dégradation de la qualité des résultats doit alors être quantifié. Dans cet art...

متن کامل

Détection de changements de distribution dans un flux de données : une approche supervisée

Résumé. L’analyse de flux de données traite des données massives grâce à des algorithmes en ligne qui évitent le stockage exhaustif des données. La détection de changements dans la distribution d’un flux est une question importante dont les applications potentielles sont nombreuses. Dans cet article, la détection de changement est transposée en un problème d’apprentissage supervisé. Nous avons ...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

عنوان ژورنال:

دوره   شماره 

صفحات  -

تاریخ انتشار 2010